基于 社交 媒体 数据 的 心理 指标 识别 建 模 : 机 器 学 习 
的 方法 


Ai? AAA RAL AREL ER IY 


(中 国 科 学 院 心理 研究 所 ， 北 京 100101) 
CQ 中国 科学 院 大 学 心理 学 系 ， 北 京 100049) 
C 联想 研究 院 ， 北 京 100094) 


摘 要 心理 指标 识别 建 模 是 基于 海量 数据 结合 计算 机 机 器 学 习 算 法 识别 心理 特征 的 一 种 
新 兴 方 式 。 由 于 传统 纸 笔 测量 方式 所 存在 的 诸多 限制 ， 本文 对 基于 社交 媒体 数据 的 心理 建 模 
方法 及 应 用 于 心理 测量 的 可 行 性 进行 综述 , 介绍 了 特征 及 提取 方法 、 常用 机 器 学 习 算 法 以 及 
应 用 场景 ,并 对 心理 指标 识别 建 模 的 优势 和 不 足 进行 了 总 结 与 展望 。 该 测量 方法 基于 社交 媒 
体 数据 ， 相 比 自我 报告 法 具有 时 效 性 高 、 可 回溯 测量 、 生 态 效 度 好 等 独特 优势 。 然 而 ， 基 于 
社交 媒体 的 心理 指标 识别 建 模 方法 也 在 学 习 成 本 、 硬 件 成 本 等 方面 存在 局 限 性 。 未 来 研究 人 
员 需 要 进一步 探索 社会 媒体 信息 与 用 户 心理 变量 间 的 关联 机 制 , 并 将 心理 指标 识别 模型 同 传 
统 心理 学 研究 方法 结合 进行 更 多 的 探索 和 应 用 ,心理 指标 识别 建 模 结合 心理 测量 基本 原理 和 


计算 机 领域 机 器 学 习 的 技术 ， 将 为 心理 学 研究 打开 一 局 新 的 大 门 。 
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利用 社交 媒体 数据 建立 心理 指标 的 识别 模型 , 是 通过 将 被 研究 者 心理 测试 的 自我 报告 结 
果 与 其 社交 媒体 数据 相 结 合 , 采用 机 器 学 习 的 方法 建 并 两 者 之 间 的 映射 ， 从 而 可 以 实现 通过 
分 析 用 户 的 社交 媒体 行为 数据 直接 完成 对 其 心理 特征 高 准确 度 的 自动 识别 。 用 户 在 社交 网 络 
上 的 在 线 行为 数据 为 心理 指标 识别 建 模 ( 下 文 简称 “心理 建 模 ”) 的 开展 提供 了 便于 获取 的 海 
量 行为 数据 。 利 用 社交 媒体 数据 进行 心理 建 模 成 为 了 心理 测量 的 一 种 新 兴 方 法 。 
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1 目前 心理 测量 领域 应 用 最 为 广泛 的 方法 是 自我 报告 法 Robins et al., 2007)。 自 我 报告 法 
2 ”能 够 提供 丰富 的 信息 ,为 研究 提供 宝贵 的 自我 视角 , 同时 因 其 操作 简便 而 被 广泛 使 用 Paulhus 
3 ”及 Vazire,2007)。 然 而 自我 报告 法 可 能 存在 以 下 问题 (Dunning etal., 2005): 首先 ， 由 于 人 记 
4 ， 忆 的 固有 局 限 性 ,， 当 研究 人 员 在 用 自我 报告 法 进行 回溯 性 研究 时 , 通常 很 难 做 到 与 过 去 时 间 
5 点 精确 匹配 的 测量 ; 其 次 ， 自 我 报告 法 受制 于 测量 的 人 力 物 力 ， 且 涉及 到 问卷 的 填写 、 回 收 
6 ”和 处 理 ， 整 个 流程 耗 时 长 ， 时 效 性 较 差 ， 因 而 难以 大 规模 地 进行 频率 较 高 的 测量 ; 最 后 ， 自 
7 ”我 报告 法 依赖 于 被 试 的 主动 配合 ， 当 被 试 不 愿 配合 , 或 者 不 适宜 给 被 试 增加 额外 负担 时 ， 自 
8 
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我 报告 法 往往 难以 顺利 开展 。 
近年 来 , 随 着 互联 网 的 普及 ,社交 媒体 逐渐 成 为 人 们 生活 的 重要 组 成 部 分 。 用户 的 在 线 

10 行为 能 够 通过 电子 记录 在 网 络 空 间 中 被 实时 保存 下 来 ， 形 成 自然 情境 下 丰富 的 用 户 行为 数 
11 dh, 为 心理 测量 提供 了 新 的 数据 平台 和 研究 途径 。 许 多 研究 结果 证 明 ， 用户 在 社交 媒体 上 的 
12 ”行为 数据 列 含 了 大 量 的 心理 学 含义 ， 是 了 解 人 们 认 知 、 情 感 、 人 格 、 心 理 健康 等 心理 过 程 的 
13 A-AA. Plin, 在 社交 媒体 上 的 浏览 时 长 与 用 户 的 社交 意愿 正 相 关 ， 社 交 网 站 上 的 好 友 数 
14 量 与 用 户 的 害羞 程度 负 相关 (Orret al., 2009). Gosling 等 人 (2011) 认 为 用 户 的 好 友 数 量 、 发 状 
15 MRE Facebook 上 的 行为 数据 分 别 与 大 五 人 格 的 五 个 维度 存在 显著 相关 ， 这 表明 有 可 能 
16 “利用 网 络 数据 对 用 户 的 人 格 进行 估计 。 除 行为 特征 外 ， 用 户 在 社交 媒体 上 发 布 的 文本 信息 


17 ”(Qiu etal.,2012)、 文 字 表 情 (Park etal., 2015) 等 均 被 发 现 与 心理 特征 存在 显著 关联 ， 其 效应 量 


18 ”在 中 等 以 上 (Carvalho & Pianowski, 2017)， 这 表明 利用 社交 媒体 数据 建立 识别 心理 指标 的 计 
19 ” 算 模型 具有 可 行 性 。 
20 基于 以 上 研究 结果 , 不 少 学 者 开展 了 借助 社交 媒体 数据 进行 心理 建 模 的 研究 。 本 文 在 梳 
21 ” 理 心 理 建 模 方法 的 基础 上 ， 对 心理 建 模 作为 心理 测量 方式 的 可 行 性 及 有 效 性 进行 讨论 分 析 ， 
22 ”并 对 其 未 来 应 用 领域 和 发 展 趋势 进行 展望 。 

23 ”1 心理 建 模 的 一 般 过 程 


24 心理 建 模 的 一 般 过 程 包括 社交 媒体 数据 准备 (Data Collection)、 特 征 提取 (Feature 


25 ”Extraction)、 特 征 选 择 (Feature Selection)、 数 据 建 模 (Modeling)、 交 叉 验 证 (Cross-Validation) 以 
26 ”及 结果 输出 (Outpub 几 个 主要 部 分 。 一 般 建 模 过 程 如 图 1 所 示 。 

27 在 心理 建 模 时 , 首先 需要 获得 用 户 的 社交 媒体 数据 以 及 对 应 的 心理 特征 自我 报告 评分 作 
28 ”为 心理 模型 的 效 标 。 目前 研究 中 用 到 的 自我 报告 评分 多 为 自 评 量 表 分 数 , 男 有 些 心理 模型 的 


29 ” 效 标 采用 客观 指标 例如 职业 阶级 (Preotiuc-Pietro, Lampos, & Aletras, 2015)、 收 入 水 平 
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(Preotiuc-Pietro, Volkeva, et al., 2015) 等 。 利 用 社 


大 ， 例 如 在 Facebook 应 月 


交 媒 体 数 据 进 行 心理 建 模 的 用 户 数量 


可 达 39 万 名 用 户 (He et al., 2014). 


频数 、 


et al., 2015; Lampos et al., 2014); 社交 


ZK ALA 


其 次 ， 对 于 社交 媒体 数据 进行 量化 编码 ， 即 特征 提取 步骤 。 
频率 、 建 立 稀疏 矩阵 等 。 


析 (Farnadi et al., 2013; Hao et al., 2014); 文本 信息 


再 次 , 选用 适当 的 机 器 学 习 方法 将 用 户 的 自我 报告 得 分 与 相应 的 衬 
建立 映射 关系 ， 并 且 采 用 交叉 检验 ,验证 模型 的 计算 效果 。 
最 为 常用 的 模型 性 能 
FAW 


1 试 集 评估 模型 


社交 媒体 行为 信息 ， 例 如 微 博 数 量 


H MyPersonality 上 开展 的 研究 用 户 数 量 一 般 在 1000 名 以 上 ， 


般 较 


可 利用 已 有 


E 阵 ， 以 进行 3 


生 能 ,数据 集 将 划分 多 次 直至 


评估 方法 , 上 


言 息 可 用 于 建立 反映 用 


每 个 数据 都 做 过 


验证 能 够 充分 利用 原始 数据 并 避免 了 随机 划分 不 均衡 对 模型 性 能 的 影响 , 同时 也 可 以 尽 


免 模 


心理 


型 的 过 拟 合 。 


B 


常用 的 编码 方式 包括 分 类 、 
旺 ， 可 进行 频数 的 统计 和 分 

的 词典 进行 词 频 统计 (Eichstaedt 
户 与 关注 、 点 赞 以 及 转发 用 户 
步 分 析 (De Choudhury et al., 2014; Gittelman et al., 2015). 
}: 交 媒体 语言 行为 特征 
交叉 检验 是 机 器 学 习 建 模 过 程 中 
具体 操作 是 将 数据 集 分 为 训练 集 和 测试 集 , 并 用 训练 集 建 模 、 
寸 训 练 集 也 做 过 测试 集 。 交 叉 


最 后 , 得 到 基于 社交 媒体 数据 的 心理 特征 识别 模型 。 当 输入 同 质 用 户 的 社交 媒体 数据 时 ， 


模型 可 根据 模型 特点 自动 ; 


社交 媒体 
特征 提取 


行 特征 提取 、 模 型 计算 并 输出 用 户 的 心理 特征 值 。 


输出 : 
心理 特征 


2 社交 媒体 数据 类 型 


由 于 社交 媒体 平台 本 身 所 包含 的 多 样 性 信 ， 
类 型 的 数据 。 在 研究 中 ， 人 们 往往 仅 选 取 一 种 或 者 几 种 数据 类 


自我 报告 数据 


图 1 心理 建 模 的 一 般 过 程 示意 图 


媒体 数据 根据 记录 形式 的 不 同 主要 可 以 分 为 个 人 账户 信 ， 


息 和 丰富 的 功能 


ua 


其 也 给 研究 人 员 提 供 了 多 种 
进行 深入 分 析 和 应 用 。 
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息 和 使 用 信息 、 文 本 信息 、 社交 网 络 


言 息 、 图 片 信息 以 及 其 他 线索 。 在 心理 建 模 的 过 程 中 ,不 同类 别 的 社交 媒体 数据 可 以 通过 不 
同 的 量化 编码 方式 ， 从 丰富 的 电子 记录 中 提取 出 若干 的 数据 特征 。 


2.1 个 人 账户 信息 和 使 用 信息 


个 人 账户 信息 包括 用 户 昵 称 、 性 别 、 生 日、 居住 地 、 自 我 简介 、 隐 私 设置 、 头 像 信息 、 
个 性 化 设置 ( 郑 敬 华 等 , 2018; Bai et al., 2014; Gao et al., 2013) 等 与 该 社交 媒体 账户 有 关 的 
基础 信息 。 区 别 于 自我 报告 法 获得 的 人 口 统计 学 信息 , 社交 媒体 上 的 个 人 账户 信息 往往 选择 
性 填写 , 造成 缺失 数据 较 多 且 与 真实 情况 有 所 出 入 。 因 此 , 在 利用 个 人 账户 信息 进行 建 模 时 
需要 注意 个 人 账户 信息 与 人 口 学 统计 信息 的 区 分 (Markovikj et al., 2013). 
社交 媒体 的 使 用 信息 指 的 是 用 户 在 使 用 社交 媒体 时 留 有 的 大 量 电子 浏览 记录 , 许多 研究 
使 用 这 些 “ 电 子 足 迹 ? 对 个 体 进 行 心理 建 模 , 它们 包括 发 贴 的 时 间 (De Choudhury et al., 2013)、 


首次 登录 的 时 间 (Nie et al., 2014)、 在 线 时 长 (Bai et al., 2012)、 帖 子 总 数 (Celli et al., 2013). hh 


子 包含 URL 数量 (Adali & Golbeck, 2014) 等 。 


2.2 文本 信息 


文本 作为 社交 媒体 的 主要 呈现 内 容 之 一 , 也 成 为 了 目前 研究 人 员 进 行 心理 建 模 研 究 使 用 
最 为 广泛 的 数据 类 型 ， 目 前 已 发 展 出 了 许多 成 熟 的 文本 处 理 技术 ,包括 词 频 统 计 、 词 向 量 构 
造 、 主 题 模型 、 自 建 词 典 等 。 

在 进行 词 频 统计 时 ，tf-idf 算法 可 以 过 滤 掉 常见 的 词语 ， 保 留 重 要 的 词语 (Salton & 
Buckley, 1988)， 目 前 广泛 地 应 用 于 心理 建 模 的 相关 研究 中 (Peng et al., 2015; Seneviratne et al., 
2015)。 在 构造 词 向 量 过 程 中 , 将 具体 的 词 信息 转换 为 词 向 量 的 常用 转换 算法 包括 n-gram( 王 


tune 等 , 2014; Brown etal., 1992; Kern et al., 2014; Mohammad & Kiritchenko, 2015), Word2Vec 
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GKE 等 , 2019; Rong, 2014; Garten et al., 2016) 和 GloVe (Pennington et al., 2014; Arnoux et al., 
2017)。 对 于 主题 模型 ， 曹 奔 等 人 (2018) 针 对 其 在 心理 学 文本 分 析 领 域 的 应 用 进行 了 细致 的 盖 
述 。 主 题 模 型 也 广泛 地 应 用 于 人 格 预测 (Hu et al., 2017; Liu, Y. Z. etal., 2016) 与 心理 健康 分 


a 


(Smith et al., 2018; Zhang et al.,2014) 的 模型 中 。 在 自 建 词典 方面 ， 研 究 者 们 编制 了 许多 以 情 


绪 、 认 知 、 社 会 关系 等 为 主题 的 词典 ， 包 括 LIWC(Linguistic Inquiry and Word Count) 心 理 语 


义 词典 (Pennebaker et al., 2007). MRC 心理 语言 数据 库 (Wilson, 1988)、NRC 情绪 词典 


(Mohammad & Turney, 2013), ANEW 情绪 词典 (Nielsen, 2011)、PMI (pointwise mutual 


information) 文 字 表 情 词 典 (Park et al., 2015)、Ekman 情感 词典 (Volkova & Bachrach,2015)、 道 


必 Ww N 


德 基础 词典 (Moral Foundations Dictionary, MFD) (Haidt et al., 2009). NLTK 词典 (the Natural 


Language Toolkit; Loper & Bird, 2002) 、 Afin Ñ 典 ( iF JM 


http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=6010),. H4Lvd 词典 (PEJ: 


http://www.wjh.harvard.edu/~inquirer/inqdict.txt) 等 。 许 多 基于 社交 媒体 的 心理 建 模 研究 利用 自 


建 词典 取得 了 良好 的 计算 效果 (BR 等 , 2015; 娜 迪 热 ， 胡 俊 ,2018; Golbeck, Robles, 


Edmondson, & Turner, 2011; Mairesse et al., 2007). 


2.3 社交 网 络 信息 


社交 网 络 信息 指 在 社交 媒体 上 用 户 与 其 他 用 户 互 动 的 信息 。 目 前 的 心理 建 模 研 究 常用 的 
社交 网 络 特征 包括 关注 、 点 赞 、 转 发 、 提 及 、 评 论 等 。 其 中 ， 点 赞 数据 在 心理 建 模 中 使 用 得 
最 为 广泛 。 通 过 提取 用 户 的 点 赞 列表 ， 可 以 构建 用 户 -主题 稀疏 和 矩阵， 将 每 个 点 赞 主题 作为 
一 个 用 户 特征 列 , 以 此 特征 列 作为 自 变 量 进 行 计算 分 析 (Youyou et al., 2015; Praet et al., 2018)。 
个 体 的 关注 、 点 赞 、 转 发 、 提 及 、 评 论 等 社交 行为 可 以 构成 自我 中 心 的 社交 网 络 (ego network), 
从 而 可 以 计算 各 个 网 络 的 社交 网 络 指标 ， 包 括 网 络 大 小 ( 白 朔 天 等 , 2014; Bachrach et al., 


2012)、 网 络 密度 (Celli et al., 2013; Kosinski et al., 2014)、 出 度 和 入 度 (Hao etal., 2014; Li et al., 


2014)、 中 心 度 (centrality) 和 集聚 系数 (transitivity)(Golbeck, Robles, & Turner, 2011; Markovikj 


etal., 2013) 等 指标 都 可 以 进行 建 模 计算 。 进 一 步 ， 可 以 通过 用 户 的 互动 情况 对 其 影响 力 进 行 


分 析 。 常用 的 用 户 有 影响 力 指 标 包括 “Klout”* 与 “TIME”* 两 项 (Sumner et al., 2012; Lima & de Castro, 


2014)。 


2.4 其 他 信息 


除 上 述 数据 类 型 外 ， 图 片 信息 也 在 心理 建 模 分 析 中 被 广泛 使 用 ， 包 括 根据 图 片 的 色彩 、 


图 像 组 成 、 内 容 特性 、 图 像 的 亮度 等 进行 心理 建 模 (Liu, L. et al., 2016; Segalin et al., 2017; 


Skowron et al., 2016; You et al., 2014)。 
此 外 , 近年 来 有 越 来 越 多 的 社交 媒体 数据 被 证 明 可 以 用 于 心理 建 模 , 如 谷歌 应 用 (Google 


play app)(Seneviratne et al., 2014). Facebook 开放 的 多 个 应 用 程序 接口 (Application 


Programming Interface, API)(Annalyn et al., 2018; Saha et al., 2017) 等 。 
随 着 移动 互联 网 的 普及 , 越 来 越 多 的 移动 特征 可 以 被 提取 与 利用 , 例如 大 众 点 评 中 用 户 


点 评 的 餐厅 地 点 及 消费 类 型 (Zhong etal., 2015)。Kalimeri 等 人 (2019) 利 用 手机 浏览 网 络 信息 、 
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手机 应 用 信息 与 网 页 浏览 信 ， 
手机 数据 建立 的 模型 相关 与 网 页 数据 效果 相当 。 
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3 心理 建 模 的 常用 方法 


model) 与 回 ! 


尝试 在 同一 数据 集 上 采 


优 模型 。 


归 模 型 (Regression model)。 
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是 二 分 变量 , 例 
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社交 媒体 数据 将 月 
如 性 别 ; 也 可 以 人 为 将 结果 划分 为 二 分 变量 
平均 数 作为 分 割 点 根据 分 数 高 低 将 人 群 分 为 内 向 和 外 向 两 类 (Farnadi et al., 2018)。 
法 包括 逻辑 


目前 ,利用 社交 媒体 数据 的 心理 建 模 方法 根据 输出 类 型 3 
在 心理 建 模 时， 往往 
多 个 方法 进行 训练 , 通过 


J(Logistics Regression, LR), $ 


上 与 人 类 价值 计算 模型 ， 
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要 分 为 分 类 模型 


j 一 个 建 模 方 法 ， 而 是 
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‘(Classification 


不 断 调整 和 比较 , 最终 确定 一 个 或 多 个 最 


户 根 据 一 定 方法 分 为 两 类 或 多 类 。 分 类 的 结果 可 以 
量 ， 例 如 将 大 五 人 格外 疝 性 得 分 的 
常见 的 分 


了 近 算 法 (Nearest Neighbor, kNN)、 


支持 向 量 机 (Support Vector Machines, SVM)、 朴 素 贝 叶 斯 (Naive Bayes, NB)、 决 策 树 (Decision 


Tree, DT), 
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随机 森林 (Random Forest, RE) 等 ( 杨 剑 锋 
不 同 的 分 类 模型 算法 适用 于 不 同 的 社 
(Peng et al., 2002)， 在 心理 建 模 中 的 应 用 十 分 广泛 ， 


(De Choudhury et al., 2016) 等 心理 特征 的 分 类 。 
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Selection Operator Regression, LASSO regression), U$ [e 
[=| JJ (Gaussian Process Regression, GPR). ł 


(Montgomery et al., 2012)。 岭 回归 常 在 特征 


结果 对 缺失 数据 和 1 


归 算 法 包括 线性 蔬 


征 计 算 。 此 外 ,支持 向 量 机 在 分 类 模型 


交 媒 体 数据 。 逻 辑 
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(Kosinski et al., 2013)、 人 格 (Celli et al., 2013)、 抑 郁 (De Choudhury et al., 2014), 
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归 的 结果 易于 使 用 与 解释 


包括 政治 倾向 (Praetet al., 2018)、 物 质 小 


维 社 
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套 索 回归 则 是 常用 


于 高 维和 稀 玉 性 特征 条 件 下 


连续 特征 及 离散 特征 对 连续 变量 i 


归 (Linear Regression), 


斯 和 决策 树 在 处 理 文本 数据 和 社 
良好 的 表现 (Bai et al., 2012; Farnadi et al., 2016)。 随 机 森林 对 特征 
有 态 数 据 的 计算 较为 稳健 , 可 以 应 用 于 特征 量 巨 大 的 计算 模型 中 (Breiman,， 


套 索 回归 
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交 媒 体 特征 条 件 下 
理 建 模 中 也 表现 良好 ( 刘 宝 坟 ， 牛 耘 ,2016; 
j 特 


线性 不 敏感 ， 


on, RR)、 高 斯 过 


,心理 建 模 中 常用 


$FE 


建 模 中 最 为 常用 


具有 多 重 共 线性 时 使 用 (Hoerl & Kennard, 1970), 


为 一 种 通用 的 计生 


方 法 ， EEH 


LACH EE 


的 线性 回归 (Hans, 2009). 


特征 下 取得 了 良好 的 预测 效果 。 


高 斯 过 程 回 归 可 作 


| 4 心理 建 模 的 应 用 场景 


2 现 已 有 许多 研究 利用 心理 建 模 的 方法 实现 了 对 多 种 心理 特征 的 识别 ， 研 究 内 容 涵盖 了 
3 ”诸多 心理 学 研究 场景 。 


4 4.1 个 人 信息 预测 
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心理 建 模 方法 可 以 对 个 人 信息 进行 预测 ， 适 用 于 完善 网 络 用 户 缺 失 的 个 人 信息 ， 


进行 分 类 。 目 前 ， 心 理 建 模 可 对 用 户 性 别 (Schwartz et al., 2013)、 年 龄 (Zhong et al., 
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单身 (Li et al., 2014)、 职 业 阶 级 (Preotiuc-Pietro, Lampos, & Aletras, 2015)、 收 入 


水 平 (Preotiuc-Pietro, Volkova, et al., 2015); 是 否 与 父母 同居 、 物 质 滥 用 、 种 族 、 宗 教 、 党 


9 ， 派 、 性 取向 、 母 语 、 国 籍 、 教 育 水 平 、 子 女性 别 (Kosinski et al., 2013; Li et al., 2014; 


10 Volkova & Bachrach, 2015); 星座 、 了 血型 (Zhong et al., 2015) 等 变量 进行 分 类 或 预测 。 目 前 对 
E 11 ”个 人 信息 预测 的 建 模 研究 已 较为 全 面 ， 在 后 续 研 究 中 研究 人 员 可 以 将 预测 结果 作为 分 类 依 
= 12 据 进 行 对 比 研究 ， 尤 其 是 在 某 些 个 人 信息 不 便于 获取 的 场景 下 较为 适用 。 


13 4.2 人 格 判断 


14 研究 人 员 尝 试 了 多 种 类 型 的 特征 对 大 五 人 格 进行 建 模 计算 ， 包 括 文本 信息 、 行 为 信 
© 合 等 。Park 等 人 (2015) 采 用 海量 Facebook 文本 信息 构建 大 五 人 格 计算 模型 ， 
.三 。 16 计算 精度 在 0.34 到 0.46 之 间 。 还 有 研究 人 员 利用 Facebook 的 点 赞 情况 计算 用 户 的 大 五 人 
r 17 ， 格 ， 计 算 精 度 最 高 可 达到 0.47 (Youyou et al., 2015). Liu 和 Zhu(2016) 采 用 深度 学 习 综 合 微 
18 ”博文 本 特征 、 微 博 行为 特征 以 及 表情 符号 标签 等 多 重 社交 媒体 特征 进行 建 模 计算 大 五 人 
19 格 ， 最终 精 度 可 达 0.3~0.5。 
20 利用 心理 模型 对 人 格 进行 判断 可 避免 主观 感受 或 动机 对 于 测量 准确 性 的 影响 。 
21 Kosinski 等 人 (2016) 认 为 ， 机 器 学 习 计算 的 人 格 甚至 比 伴 倡 或 好 友 的 判断 更 为 准确 。 
22 ”Youyou 等 人 C017) 利 用 心理 模型 进行 人 格 的 聚 类 研究 ， 认 为 使 用 心理 模型 进行 人 格 测量 可 
23 ”以 统一 评价 标准 ， 克 服用 户 自 评 时 参考 群体 的 影响 以 及 动机 的 影响 。 目 前 对 人 格 建 模 的 研 
24 ，” 究 已 经 颇 为 全 面 ， 也 涉及 到 了 很 多 社交 媒体 特征 ， 于 建 伟 (2018) 以 及 张磊 等 人 (2014) 均 对 近 
25 ”年 来 基于 社交 网 络 的 人 格 分 析 和 人 格 建 模 研究 做 出 了 详细 的 综述 。 但 是 模型 的 计算 精度 还 
26 有 进一步 提升 的 空间 ， 也 需要 研究 人 员 进 行 更 多 的 尝试 。 


aS 


4.3 心理 健康 状态 识别 


心理 建 模 可 以 分 析 


户 在 社交 媒体 ] 


发布 的 感受 与 想法 ， 为 心理 健康 状态 筛 查 提供 了 
新 途径 。 许 多 研究 证 明 ， 可 以 利用 社交 媒体 数据 识别 抑郁 (Resnik et al., 2013)、 上 自杀 倾向 


(De Choudhury et al., 2016)、 精 神 分 裂 (Saha et al., 2017)、 人 格 障碍 (Carvalho & Pianowski, 


2017)、 焦 虑 水 平 (Settanni & Marengo, 2015)， 甚 至 身体 疾病 如 心脏 病 (Mathan et al., 2018)、 


糖尿 病 、 肥 胖 (Araujo et al., 2017; Mejova et al., 2018) 等 身心 健康 问题 。Tsugawa 等 人 (2015) 


与 Aldarwish 和 Ahmad(2017) 两 组 研究 人 员 分别 基 于 


ERF- Facebook 的 文本 信息 建立 抑郁 


识别 模型 ， 分 类 准确 率 达 到 61% 和 63%. Nguyen 等 人 (2017) 利 用 网 络 文本 信息 对 抑郁 、 双 


相 情感 障碍 、 自 我 伤害 、 悲 伤 和 自杀 群体 进行 区 分 ， 分 类 准确 率 最 高 达 88%。 


在 利用 心理 建 模 对 


送 相 关 资 源 等 干预 措施 。Liu 等 人 (2019) 提 


Online，PSPO) 的 方法 ， 主 动 识别 自杀 者 并 为 他 们 提供 有 效 的 心理 危机 干预 资源 ， 提 高 存在 


] 户 进行 心理 健康 第 查 后 ， 对 于 存在 心 


EE 问题 的 用 户 可 实现 主动 推 


H 线 上 主动 自杀 预防 (Proactive Suicide Prevention 


自杀 意念 的 用 户 的 求治 行为 以 及 公众 的 健康 意识 。 目 前 ， 这 类 方法 在 临床 中 的 应 用 不 断 增 


加 ， 在 辅助 诊断 中 也 存在 
识别 模型 的 开发 ， 以 及 在 心理 健 月 


4.4 政治 倾向 与 与 情 监测 


随 着 Web2.0 时 代 的 到 来 ， 神 
意 的 渠道 ( 周 阳 ，2018)。 利 月 
Praet 等 人 (2018) 根 据 用 户 的 Facebook 点 赞 数据 构建 美 
并 型 ， 计 算 效果 可 达到 良好 水 平 。Zhou 等 人 (2017) 通 过 分 析 社 交 媒体 数据 可 实现 对 实时 社 
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会 态度 以 及 政治 议题 的 与 情 趋 势 监测 。 


此 外 ， 对 于 关键 心理 


与 论 的 预 估 。 在 美 


国政 治 倾 


与 尽责 性 得 分 更 高 


; 价值 导 


上 交 网 络 已 经 成 为 当今 与 情 表达 的 主要 场所 和 快速 传达 民 
社交 媒体 数据 可 以 实时 了 解 民众 的 与 论 态度 以 及 政治 倾向 。 
j 户 的 政治 倾向 与 党 派 偏好 的 识别 


H 


(Dirilen-Gümüş, Cross, & Dönmez, 2012); 对 于 自由 主义 的 态度 是 


的 重要 心理 指标 ， 对 自 上 


的 社会 态度 、 人 格 


以 及 情绪 状态 都 会 影 


巨大 的 潜力 ， 其 更 广泛 的 应 用 仍 需 针 对 更 多 心理 变量 的 更 准确 的 
干预 领域 不 断 的 人 力 物 力 投入 。 


变量 如 性 别 、 受 教育 程度 等 的 识别 可 进一步 实现 用 户 政治 倾向 与 
向 的 调查 中 发 现 ， 民 主 党 与 共和 党 选民 相 比 ， 人 格 方面 外 向 性 
向 更 倾向 于 传统 ， 整 合 性 与 安全 性 ， 同 时 支持 普遍 主义 价值 观 


区 分 民主 党 与 共和 党 选民 


日 主义 态度 越 积 极 ， 越 有 可 能 倾向 于 民主 党 派 (Zschirnt, 2011)。 用 户 


响 政 治 事件 的 与 论 走 向 ( 周 阳 ，2018)。 社 交 媒 体 数 
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村 监控 提供 了 可 能 ， 可 作为 网 络 与 情 分 析 的 


可 为 维护 社会 稳定 、 促 进 民主 开放 提供 保障 。 


4.5 基于 社交 媒体 的 品牌 营销 


随 着 社交 媒体 的 


营销 途径 (Social Media Marketing)。 品 牌 的 入 


的 喜爱 程度 及 品牌 流行 度 (De Vries et al., 2012). # 


et al., 2013)， 实 现 个 性 化 营销 (Tucker, 2014). 


API 接口 ,而 


进一步 通过 心理 


本 信 ， 


为 识别 用 户 的 消费 心理 


4.6 其 他 


电 及 评论 等 信息 


此 外 ,最 新 看 


Facebook 上 的 让 


WA A 


利用 主题 模型 提取 品牌 
关键 变量 ， 从 而 制定 有 针对 性 的 营销 策略 ， 


] 户 数量 爆发 式 增长 ， 越 来 越 多 的 消费 品牌 开始 关注 


E 


要 辅助 工具 ， 


在 社交 媒体 上 的 


上}: 交 网 络 账号 的 粉丝 数 以 及 评论 直接 反应 了 客户 
}: 交 媒体 上 的 海量 数据 可 以 帮助 品牌 搜集 


] 户 需求 (Zhu & Chen, 2015)， 定 位 消费 群体 (Bolotaeva & Cata, 2010)， 确 立 品牌 形象 (Walsh 


目前 ，Facebook 的 市 场 应 | 


已 经 开放 相关 


wines 
向 的 识别 模型 。 


隐 含 的 更 多 心 到 


息 与 时 长 计 和 


利用 心理 模型 对 心理 


究 者 可 以 根据 关键 词 或 条 件 选 项 轻而易举 地 定位 可 能 感 兴趣 的 用 户 (Sahaet 
al., 2017)。Matz 等 人 (2017) 尝 试 针对 不 同 的 人 格 ， 给 同一 个 网 络 广 告 定制 了 不 同 风 格 的 首 
页 图 ， 并 根据 用 户 的 人 格 特点 进行 推送 ， 将 广告 点 
建 模 的 方法 利用 社交 媒体 数据 预测 用 户 感 兴趣 的 品牌 ， 通 


上 f 率 提升 了 约 40%。 未 来 的 研究 中 可 以 


过 品牌 账号 的 文 


象 关键 词 ， 联 合 真 实 购买 数据 与 社交 媒体 行 
将 营销 效果 最 大 化 。 


究 不 断 利用 社交 媒体 数据 实现 更 多 样 的 心理 变量 识别 。 He 等 人 (2014) 利 用 
1 子 内 容 ， 建 模 计算 用 户 的 自我 控 人 
模型 则 可 利用 推 特 数据 聚 类 计 入 


ill fig 77. Lewenberg 等 人 (2015) 构 建 的 识别 


用 户 的 个 人 兴趣 。Kalimeri 等 人 (2019) 可 根据 手机 或 网 页 浏 


变量 进行 识别 可 充分 利 


信息 ， 实 现 更 加 灵活 的 实验 设计 。 


5 心理 建 模 为 心理 测量 提供 新 途径 


5.1 心理 建 模 作为 新 途径 的 优势 


相 比 于 纸 笔 测量 方式 ， 基 于 


道德 基础 与 人 类 价值 。Dufner 等 人 (2018) 构 建 社交 媒体 数据 与 内 隐 动 机 倾 
社交 媒体 大 数据 , 探究 数据 中 


社交 媒体 的 心理 建 模 有 其 独特 的 应 ) 


成 为 现 有 测量 方式 的 有 益 补 充 ， 为 心理 测量 提供 了 新 途径 。 


j 场 景 和 适用 范围 ， 可 


社交 媒体 上 存在 大 量具 有 时 间 标 记 的 数据 ， 为 后 续 更 具 生 态 性 的 心理 变量 分 
数据 基础 。 自 我 报告 的 回答 可 能 存在 社会 赞许 效应 ， 被 试 受 社会 期 望 的 影响 可 能 


析 提 供 了 


会 给 


Hiz 


导 性 的 回答 (Gerrig et al., 2010)， 对 结果 的 准确 性 存在 一 定 影 响 。 相 比 而 言 ， 基 于 社交 媒体 


的 心理 建 模 通 过 分 析 用 户 的 社交 媒体 数据 可 实现 对 被 试 的 无 侵扰 式 测量 ， 无 侵扰 


式 的 情境 


下 数据 均 出 自用 户 的 自发 行为 ， 代 表 了 用 户 的 真实 意愿 ， 因 而 更 具 生 态 效 度 ( 朱 廷 动 等 
2015)。 此 外 ， 由 于 个 体 在 使 用 网 络 时 处 于 未 受 测 量 的 自然 状态 下 ， 也 更 有 利于 对 配合 性 


低 、 社 会 防御 强 的 人 物 进行 准确 的 心理 刻画 (Liu, Xue, et al., 2018)。 
心理 建 模 能 够 提供 更 为 统一 的 行为 测量 标准 。 相 比 于 被 试 各 自 进行 的 主观 报 


告 ， 心 理 


建 模 测 量 的 是 特定 平台 上 的 行为 ， 并 经 由 计算 机 进行 统一 的 特征 提取 和 计算 ， 计 算 过 程 一 


致 性 高 ， 结 果 更 为 客观 。 


心理 建 模 适用 于 对 大 规模 人 群 施 测 ， 并 且 被 试 覆 盖 范 围 可 以 更 广 。 自 我 报告 法 往往 选 
取代 表 样 本 进行 分 析 。 基 于 社交 媒体 的 心理 建 模 依靠 社交 媒体 规模 巨大 的 用 户 群体 可 以 将 


BOATS HT et ACRE 等 , 2015)， 禾 盖 不 同 的 地 区 、 职 业 、 性 别 、 年 龄 。 


特别 是 


当 研究 本 身 针 对 的 对 象 为 社交 媒体 使 用 者 时 ， 基 于 社交 媒体 数据 进行 心理 建 模 的 方法 几乎 


可 以 覆盖 研究 对 象 总 体 ， 使 结果 更 为 全 面 和 客观 ， 也 避免 了 统计 误差 对 结果 的 影 

心理 建 模 可 追溯 的 时 间 跨 度 大 ， 可 在 有 记录 的 任 一 时 间 点 开展 心理 学 研究 。 
一 般 专 注 于 临近 时 间 段 进行 问卷 收集 ， 而 社交 媒体 数据 上 共有 时 间 标 记 ， 可 以 不 受 
] 户 各 个 时 间 点 的 心理 状态 进行 回 滴 ， 由 此 可 开展 横断 研究 或 妃 踪 研究 (Kosinski 


I o 
自我 报告 
限制 地 对 


et al., 


2013)。 在 追踪 研究 中 ， 可 以 跟踪 被 试 特 定时 间 段 内 的 社交 媒体 活动 从 而 对 某 项 心理 特征 进 


4 


行 多 次 计算 。 这 一 方法 可 以 实现 快捷 的 数据 收集 ， 避 免 多 次 填写 问卷 的 练习 效应 
减少 在 多 次 实验 中 被 试 流失 的 问题 ， 降 低 实验 误差 。 


， 尽 可 能 


基于 社交 媒体 的 心理 建 模 可 以 有 效 汇总 特定 条 件 的 研究 对 象 。 我 们 可 以 根据 话题 标 
签 、 关 键 词 、 共 同 关注 等 内 容 对 如 兴趣 爱好 、 事 件 经 历 、 话 题 讨论 等 条 件 下 的 群体 进行 汇 


总 ， 利 用 社交 媒体 数据 进行 心理 特征 的 分 析 。 由 于 有 些 研究 本 身 的 特殊 性 ， 相 关 被 试 不 易 


招募 。 利 用 心理 模型 进行 心理 特征 的 识别 可 以 提供 了 解 该 群体 的 窗口 (Liu, Wu, et 


al., 


2018)。 此 外 ， 研 究 对 于 某 话题 主动 关注 的 人 与 令 被 试 被 动 回答 对 某 话 题 的 关注 程度 ， 其 思 


路 也 是 截然 不 同 的 。 


随 着 互联 网 社交 媒体 的 普及 ， 社 交 媒 体 数 据 已 经 成 为 记录 和 洞察 人 的 心理 特征 与 行为 


规律 的 重要 依据 。 基 于 社交 媒体 数据 进行 心理 特征 的 分 析 识别 已 经 具备 了 可 行 性 且 


202011.00006v1 


chinaXiv 


1 
2 
3 


作 。 为 了 方便 对 分 析 过 程 中 的 数据 与 算法 进行 比较 和 选择 ， 表 1 汇总 了 心理 建 模 中 常见 的 


数据 特 生 


FE、 机 器 学 习 方 法 及 要 识别 的 心理 变量 的 组 合 ， 以 便 研 究 者 在 建立 心理 模型 时 进行 


参考 。 


1 


表 1 心理 建 模 常 | 


特征 -场景 -算法 组 合 汇 总 


模 原创 文章 (不 包括 综述 和 元 分 析 ) 共 69 篇 。 


的 算法 。 


pez 


E3: 应 用 场景 中 


注 2: KP GP 指 高 斯 过 程 分 类 ，RFR 指 随机 森林 


I 


其 他 类 别 的 [] 标 明 心 理 模 型 预测 的 心理 变量 。 


归 ，NN 484 


站 


经 网 络 ， 表 格 中 加 粗 字 体 为 以 往 文献 


应 用 场景 
个 人 信息 人 格 心理 健康 其 他 
BA 分 类 : SVM, GP, LR 可 归 : M5、GPR、RR、 线 性 回归 、PACE 回归 : LASSO, SVR, stepwise 
账户 分 类 : SVM, NB, DT 
信息 
文本 可 归 : RR 回归 : GPR、 线 性 回归 、RR、MS5、RFR 回归 : 线性 回归 、LASSO、SVR、 回归 : RR, GPR [用 户 影响 力 ] 
信息 分 类 : SVM. GP, LR, 分类: NB. SVM, ZeroR, RF, DT, ZeroR, stepwise, PACE 分 类 : SVM [情感 类 别 ] 
NB J48, KNN, LR, NN 分 类 : SVM, LR, NN, RF LR [道德 判断 ， 自 我 监控 行为 ] 
社交 回归 : 线性 回归 、RR 可 归 : LASSO、GPR、 线 性 回归 、RFR、M5、 回归 : 线性 回归 、LASSO、SVR、 回归 : RR, GPR [用 户 影 响 力 ] 
网 络 分 类 : LR, SVM, GP PACE, RR stepwise, PACE 分 类 : LR [政治 倾向 ] 
. 信息 分 类 : SVM, NB, ZeroR, J48, RF, KNN, 分类: SVM、 NN 
a LR, NB, DT 
社交 媒体 可 归 : 线性 回归 、PACE、GPR 回归 : 线性 回归 , PACE、LASSO， 回归 : RR, GPR [用 户 影响 力 ] 
使 用 信息 分 类 : SVM. NB. DT, J48, RF. ZeroR SVR, stepwise 
分 类 : SVM. NN 
到 片 信息 。 分 类 : LR, NN Hl: REE, RFR 
其 他 信息 可 归 : PR, 线性 回归 可 归 : GPR、 线 性 回归 、RFR、LASSO 回归 : 线性 回归 分 类 : RF [人 类 价值 ] 
分 类 : SVM. LR, GP, 分 类 : NB, SVM, KNN, DT, ZeroR 
NB, NN 
VE 1: 表 中 统计 的 文献 为 来 源 于 谷歌 学 术 搜 索 关 键 词组 “social media + predict”, “social media + model”, “social media + machine learning” F 2010 £ 2019 年 所 有 的 心理 建 


使 用 2 次 的 算法 ， 加 粗 加 下 划 线 字体 为 以 往 研究 


bP 使 


用 3 次 以 上 


1 如 表 1 AAS, EDRR, HMR A A EA SC TA LS VM) 12 48 ELR) 
2 等, 回归 模型 中 ， 使 用 频率 最 高 的 算法 为 线性 回归 和 高 斯 过 程 回归 (GPR)。 这 些 算法 在 诸多 
3 ”社交 媒体 特征 的 建 模 中 均 有 使 用 。 研究 人 员 在 对 于 新 的 心理 变量 进行 建 模 时 , 可 根据 具体 应 
4 场景 和 数据 类 型 ， 借 鉴 以 上 列 出 的 常用 建 模 方法 ， 优 先 考虑 该 场景 下 的 常用 算法 。 
5 值得 注意 的 是 , 任何 一 种 建 模 算法 都 有 其 适用 范围 , 研究 人 员 在 选择 算法 时 需要 特别 关 
6 ” 注 算法 的 前 置 假设 ,一 味 妃 求 暂时 的 模型 效果 而 忽视 算法 本 身 的 限制 条 件 反而 会 阻碍 模型 的 
7 ”适用 范围 ， 需 要 严格 检验 数据 并 对 建立 的 模型 不 断 优化 。 

8 为 了 对 心理 建 模 的 性 能 进行 评估 ， 依 据 目标 心理 特征 的 属性 不 同 ， 目 前 评价 标准 可 划 
9 ”分 为 两 大 类 。 离 散 型 心理 指标 的 主要 评价 标准 有 准确 率 (Accuracy)、 精 确 率 (Precisiom)、 接 


10 ” 收 者 操作 特征 曲线 (Receiver Operating Characteristic Curve， 也 称 ROC 曲线 )、 曲 线 下 面积 


Car 


11 (Area Under the Curve, AUC) 等 。 连 续 型 心理 指标 的 主要 评价 标准 包括 预测 值 与 真实 值 的 相 


12 关系 数 (r)、 平 均 绝对 误差 (Mean Absolute Error, MAE)、 均 方 根 误差 (Root Mean Square Error, 


© 13 ”RMSE)、 决 定 系 数 (R2) 等 。 现 已 有 相当 多 的 分 类 模型 的 分 类 准确 率 可 达 80% 以 上 (Celli et al., 


14 ”2013; Iacobelli et al., 2011; Seneviratne et al., 2014)， 相 当 于 心理 测量 的 效 标 效 度 计算 中 总 命 
GI 15 。 中 素 达 到 了 80% 以 上 ， 在 回归 模型 中 ， 模 型 计算 结果 同 真实 值 之 间 的 相关 系数 也 可 以 达到 
16 0.3~0.5 之 间 ， 相 当 于 通过 回归 分 析 对 效 标 效 度 进行 计算 并 达到 了 中 等 相关 的 水 平 。 综 上 ， 
= 17 不论 是 哪 类 心理 特征 ， 心 理 指标 识别 模型 均 具 有 良好 的 效 标 效 度 。 

% 18 此 外 也 有 研究 表明 心理 模型 的 计算 结果 具有 较 高 的 稳定 性 和 一 致 性 。 刘 明明 (2019) 对 
19 ”其 所 建立 的 心理 模型 的 重 测 信 度 进行 了 检验 ， 其 中 ， 大 五 人 格 识别 模型 的 测量 间隔 为 6 个 
20 月， 抑郁 、 自 杀 可 能 性 、 生 活 满意 度 识别 模型 的 重 测 间隔 为 1 个 月 ， 将 重 测 前 后 心理 特征 
21 ”进行 分 析 ， 其 中 大 五 人 格 、 抑 郁 、 自 杀 可 能 性 及 生活 满意 度 模 型 的 重 测 信 和 度 均 在 0.75 以 
22 上， 达到 了 较 高 的 可 信和 度 ， 结 果 如 表 2 所 示 。 


23 表 2 心理 模型 识别 信 度 检验 ( 刘 明 明 ，2019) 
计算 模型 重 测 信 度 
大 五 人 格 0.77~0.79 
HAR 0.83 
自杀 可 能 性 0.80~0.91 


生活 满意 度 0.84 


1 


综 上 所 述 ， 


程 ， 但 其 模型 的 计算 结果 经 过 


我 们 发 现 虽然 基于 社交 媒 


体 的 心理 建 模 没有 遵循 严格 的 心理 量 表 开 发 
寺 信 效 度 检验 ， 模 型 对 心理 指标 的 识别 是 稳定 可 靠 的 。 


将 


5.2 心理 建 模 的 不 足 之 处 


尽管 基于 社交 媒体 的 心理 建 模 是 可 行 的 ， 并 且 其 计算 结果 经 过 一 


是 作为 一 种 新 的 方法 ， 仍 然 存在 不 足 之 处 。 


首先 ， 基 于 社交 媒体 的 心理 建 模 这 


纸 笔 测量 方式 ， 


复杂 的 心理 变量 计 外 


此 外 ， 这 一 新 方法 


其 次 ， 新 方法 的 场景 以 社交 媒体 为 主 ， 也 面临 着 被 试 范围 受 限 的 问题 
户 的 组 成 多 样 ， 履 盖 人 群 较 广 ， 但 仍 无 法 覆盖 真实 世界 中 的 全 部 用 户 。 社 交 媒 体 用 户 这 
一 特定 群体 可 能 会 对 实验 带 来 群体 偏差 ， 不 同 社交 平台 的 | 


这 些 基于 场景 的 群体 偏差 对 于 心 型 


再 次 ， 基 于 社交 媒体 的 心理 


KET H 


MERTEBE, HEF 
许多 传统 心理 测量 方法 在 主观 自我 报告 


定 的 信 效 度 检 验 ， 但 


一 新 方法 具有 一 定 的 学 习 成 本 。 相 比 于 心理 学 研究 


心理 建 模 过 程 中 涉及 到 的 大 量 计算 机 专业 知识 ， 相 对 
过 程 ， 都 会 给 心理 学 领域 研究 人 员 对 结果 的 计算 和 解释 带 来 一 定 的 挑 


还 有 额外 的 设备 成 本 。 社 交 网 络 中 的 海量 用 户 数据 可 达 TB 级 别 ， 
进行 处 理 和 分 析 时 ， 计 算 机 的 计算 性 能 和 存储 性 


能 均 将 面临 更 高 的 要 求 。 


的 


理 建 模 研 究 的 影响 仍 有 待 进 一 
前 也 存在 准确 度 受 限 的 问题 。 
量 的 识别 模型 以 自 评 量 表 得 分 作为 效 标 进行 建 模 (Kosinski et al., 2015)。 模 型 本 身 计算 的 准 
从 段 结果 的 准确 性 也 影响 着 模型 的 好 坏 。 目 前 ， 已 经 有 


基础 


。 昌 然 社交 媒体 


] 户 也 会 存在 不 同 的 群体 特征 。 
步 探讨 。 


目前 ， 大 部 分 心 


理 变 


上 之 上 加 入 客观 测量 指标 ， 作 为 主观 报告 的 补 


充 进 行 聚合 指标 的 研究 。 例 如 ， 睡 眠 质量 可 采用 睡 


眠 时 间 ， 睡 眠 潜伏 期 等 客观 指标 进行 表 


示 (Devnani & Hegde, 2015); 注意 水 平 可 采取 主观 测量 与 客观 测量 结合 进行 研究 ， 如 脑 电 ， 


眼 动 水 平等 (Hopstaken et al., 2016)。 未 来 的 心理 建 模 可 借鉴 客观 测量 指标 ， 逐 


我 报告 得 分 作为 建 模 效 标的 计算 模式 ， 转 变 为 以 结合 主观 报告 和 客观 测量 的 综合 


建 模 的 目标 变量 的 方式 ， 进 


Bua, AG 


0.8~0.9 以 上 的 准确 率 ; 


精度 是 否 


能 够 达到 心 


步 从 仅 将 自 
指标 作为 


步 提升 心理 模型 的 内 部 效 度 。 


前 心理 模型 的 识别 精度 仍 需 进一步 提高 。 
回归 模型 外 


尽管 目前 心理 分 类 模型 能 够 达到 


EAB 0.3 以 上 的 中 等 相关 ， 但 仍 存在 以 当前 的 心理 建 模 
理学 研究 所 需 良 好 的 信 效 度 等 疑问 。 


心理 建 模 的 精度 提升 是 基于 计算 


24 
25 


机 与 心理 测 
样本 分 布 状 


al., 2018). 


量 领 域 技术 发 展 的 缓慢 累积 过 程 。 目 前 的 计算 结果 往往 是 根据 概率 分 布 预测 的 
态 ， 因 此 在 做 临床 使 用 或 者 针对 个 体 差 异化 评估 时 需要 谍 慎 使 用 (Liu, Xue, et 


6 心理 建 模 的 未 来 发 展 趋势 


利用 社 
个 人 信息 预 
巨大 的 潜力 


交 媒 体 数 据 进行 建 模 ， 从 而 识别 心理 特征 是 一 种 新 兴 的 心理 测量 方法 ， 在 用 户 
测 、 人 格 判断 、 心 理 健康 筛 查 、 政 治 倾 向 判断 以 及 消费 行为 预测 等 方向 上 有 具有 
。 在 未 来 的 研究 中 ， 有 如 下 发 展 趋势 值得 关注 : 


6.1 社会 媒体 信息 与 用 户 心理 变量 间 的 关联 机 制 


利用 机 
而 数据 与 心 
神经 网 络 或 


器 学 习 算法 进行 心理 建 模 ， 可 以 通过 数据 特征 直接 计算 出 相应 的 心理 指标 ， 然 
理 变 量 间 的 关联 机 制 却 相对 难以 解释 和 理解 。 一 些 复杂 的 机 器 学 习 算 法 ， 例 如 
高 斯 过 程 ， 并 不 直接 将 某 一 社交 媒体 特征 与 目标 心理 变量 进行 关联 ， 而 是 经 过 


层 层 变换 最 


2018)。 男 一 些 建 模 过程 通 过 降 维 运算 或 傅 里 叶 变 换 转换 数据 坐标 系 ， 从 而 使 得 数据 特征 


失 原 有 的 心 
可 解释 
推出 更 好 的 


终 计算 出 心理 变量 的 离散 类 别 或 连续 值 (Arnoux et al., 2017; Wang & Kosinski, 


Re 


理学 含义 (Praet et al. 2018). 


性 强 的 心理 建 模 方式 在 心理 学 研究 中 往往 能 提供 更 多 的 过 程 信息 ， 同 时 也 能 倒 
心理 干预 方式 。 如 何 将 行为 数据 的 处 理 赋予 心理 学 含义 是 一 项 值得 关注 的 话 


题 。 一 方 


研究 人 员 开 始 尝试 解释 性 强 的 算法 进行 建 模 ， 如 进化 模糊 系统 (Evolutionary 


Fuzzy Systems)(Fernandez et al., 2019)， 新 闻 处 理 领域 的 I-T-O 算法 透明 度 模 型 ( 仇 移 黄 ， 陈 


便 能 够 取得 


心理 学 理论 


选 ， 从 而 保 


昌 凤 , 2018) 等 。 另 一 方面 ， 越 来 越 丰富 的 社交 媒体 数据 可 以 使 得 应 用 简便 易 懂 的 方式 建 模 


良好 的 模型 效果 (Nave et al., 2018; Kalimeri et al., 2019)。 此 外 ， 也 可 以 党 试 结合 
£ 


， 如 通过 心理 学 现 有 研究 中 某 些 行为 特点 和 心理 特质 之 间 的 关系 对 特征 进行 得 


证 所 确定 的 建 模特 征 在 心理 学 层面 的 可 解释 性 。 


6.2 多 数据 源 特征 与 多 识别 模型 融合 优化 模型 精度 


随 着 互 
交 媒 体 上 ， 


联网 技术 与 通讯 技术 的 不 断 发 展 ， 越 来 越 多 的 信息 以 更 加 密集 的 形式 呈现 在 社 


小 视频 、3D/4D 影像 、 虚 拟 现实 等 包含 大 量 信息 的 数据 形式 高 速 发 展 (Roberts & 


1 Foehr, 2008)。 心 理 建 模 所 采用 的 数据 特征 从 最 初 单一 的 文本 特征 逐渐 过 渡 到 图 片 、 手 机 定 
2 ”位 等 多 元 化 的 综合 特征 。Azucar 等 人 (2018) 通 过 元 分 析 证 明 在 进行 心理 建 模 时 多 种 特征 结 
3 ” 合 使 用 的 建 模 效果 优 于 单 种 特征 ， 多 样 化 特征 种 类 可 以 更 加 全 面 地 识别 个 体 心理 特征 。 


4 新 出 现 的 社交 媒体 数据 是 否 与 心理 特征 存在 关联 ， 怎 样 整 合 不 同类 型 的 特征 以 取得 更 
5 ， 优 的 识别 效果 ， 都 是 咀 待 研究 的 新 间 题 。 此 外 ， 研 究 表明 ， 融 合 (fusiom) 多 个 机 器 学 习 模 型 
6 ”往往 可 以 提高 整体 的 识别 能 力 (Yu et al., 2011)。 因 此 ， 在 未 来 的 研究 中 研究 者 们 可 以 将 这 


| 


思路 运用 到 心理 特征 识别 的 建 模 实 践 中 ， 深 入 挖掘 使 用 多 数据 源 特征 与 多 识别 模型 集成 
8 ”的 方法 ， 进 一 步 提高 模型 精度 。 


9 63 心理 模型 与 传统 心理 学 研究 方法 的 有 效 结合 


10 基于 社交 媒体 的 心理 建 模 方法 作为 一 种 补充 的 测量 方式 ， 在 自我 报告 法 难以 实现 的 场 
ll ， 景 下 具有 一 定 的 优势 ， 因 此 ， 将 其 与 传统 心理 学 研究 方法 结合 能 够 进一步 拓展 研究 范畴 。 
究 人 员 可 以 借助 这 一 新 方法 进行 更 多 的 对 比 实验 ， 如 国籍 、 文 化 、 地 域 等 方面 的 差异 研 
13 FE. 另外， 利用 心理 模型 进行 测量 配合 灵活 的 实验 设计 可 以 获取 以 往 传统 方式 难以 获取 的 
14 ”样本 量 和 特殊 样本 和 群体， 更 可 以 突破 时 间 上 和 被 试 招募 上 的 限制 从 而 将 某 些 相关 性 问题 推 
15 ” 进 到 因果 性 角度 的 探究 。 

16 现 已 有 学 者 利用 基于 社交 媒体 的 心理 建 模 方法 进行 实验 设计 并 开展 研究 。Matz 等 人 
17 ”(2017) 基 于 Facebook 点 赞 行为 对 用 户 的 大 五 人 格 特点 进行 识别 ， 并 在 此 基础 上 进行 了 定向 
1 18 “广告 投放 ， 结 果 表 明 当 广告 内 容 同 受 众 性 格 相 匹配 时 更 易 影 响 他 们 的 行为 。 该 研究 涉及 了 
19 Facebook 平台 上 的 数 百 万 名 用 户 ， 传 统 测量 方式 无 法 实现 ， 而 基于 社交 媒体 的 心理 建 模 这 
20 ”一 新 方法 提供 的 用 户 人 格 特征 为 后 续 研 究 葛 定 了 基础 。 有 些 研究 针对 某 些 重大 生活 事件 ， 
21 ”而 这 类 事件 发 生 后 短期 内 往往 难以 获得 足够 的 样本 进行 心理 特征 的 测量 ， 且 由 于 该 类 事件 
22 ”无 法 预知 从 而 无 法 获得 前 后 测 的 对 照 。Liu, Xue 等 人 (2018) 基 于 新 浪 微 博 的 用 户 活动 利用 心 


— 
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23 ， 理 健康 模型 对 于 家 庭 暴力 受害 者 短期 内 受到 的 影响 进行 分 析 ， 殉 服 了 传统 方法 无 法 即时 测 
24 ， 量 的 缺 哆 ， 研 究 了 受害 者 在 家 暴 前 后 短期 时 间 内 抑郁 、 生 活 满意 度 等 的 变化 。 


6.4 心理 建 模 和 脑 科 学 领域 的 深度 融合 


心理 建 模 的 研究 和 脑 科 学 的 发 展 相互 结合 相互 促进 。 一 方面 ， 目 前 的 心理 建 模 研究 主 


要 集中 于 对 社交 媒体 用 户 的 网 络 行为 进行 分 析 ， 通 过 提取 用 户 的 社交 媒体 行为 特征 建立 心 


YH 


时 特征 的 预测 模型 。 然 而 在 社交 媒体 行为 预测 心理 特征 这 一 过 程 中 用 户 行为 的 心理 学 机 和 


=, 


尤其 是 脑 科 学 机 制 尚 不 明确 。 从 脑 科 学 角度 深入 挖掘 用 户 的 社交 媒体 行为 有 助 于 进一步 揭 


示 用 户 行为 背后 的 神经 科学 机 制 ， 从 而 增强 依据 行为 特征 所 建立 的 心理 模型 的 可 解释 性 。 


同时 在 心理 建 模 过 程 中 依据 神经 科学 基础 进行 特征 得 选 和 提取 也 有 望 进一步 提高 模型 的 计 


算 性 能 。 另 一 方面 ， 基 于 社交 媒体 的 心理 建 模 作为 一 种 交叉 领域 的 方法 ， 可 以 应 用 于 与 认 


知 相关 的 心理 特征 的 分 析 研 究 中 。 通 过 这 样 的 方式 ， 我 们 可 以 把 用 户 认 知 相关 心理 特征 、 


社交 媒体 互动 环境 以 及 大 脑 的 认 知 活动 有 效 结合 在 一 起 ， 为 深入 研究 个 体 与 个 体 自 然 状 态 


下 社交 活动 的 心理 机 制 提供 可 能 。 社 交 媒 体 平台 为 脑 科学 的 研究 提供 了 用 户 在 线 进行 社交 


互动 的 生态 环境 ， 而 基于 社交 媒体 的 心理 建 模 则 能 够 对 用 户 相应 的 心理 特征 进行 计算 和 分 


析 ， 在 此 基础 上 ， 研 究 人 员 可 以 对 人 类 在 网 络 互动 环境 下 的 认 知 活动 等 心理 过 程 进 行进 一 


步 探究 。 
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Abstract: Modeling psychological indexes (i.e., psych-modeling) is an emerging method that uses 
machine learning algorithms to identify psychological indexes based on big data. This paper reviews 


the feasibility of psych-modeling methods based on social media data in the field of psychometrics. 


Frequently used data types and machine learning algorithms are introduced. Then, we summarize 
psych-modeling’s application to various scenarios together with its strengths and weaknesses. 
Compared with traditional self-reporting methods, psych-modeling has some advantages, including 
better performance in retrospective studies, greater ecological validity, and greater time-efficiency. 
However, psych-modeling has several limitations. For example, researchers need to spend extra 
time and effort to learn this new method and bear the inevitable cost of hardware. In future studies, 
researchers could investigate further how user’s behavior on social media relates to psychological 
indexes. We also expect psych-modeling will be used in future psychological studies. By combining 
psychometrics and machine learning, we believe psych-modeling could make great contributions to 
psychology research and practice in the future. 
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